Semua Materi TPG

Angga Fathan Rofiqy

09 October, 2023

0.1 Data input

install_load('readxl')
data <- read_excel("Data FSVA 2022 -- multivariate.xlsx")
install_load('DT')
datatable(data, filter = 'top', 
          options = list(pageLength = 10))
rownames(data) <- data$Wilayah

1 No 1.a

Analisis komponen utama pada ke-9 indikator!

Untuk analisis nya, dapat menggunakan plot matriks korelasi maupun matriks kovarians. Matriks korelasi yang berisi nilai-nilai korelasi pada dasarnya digunakan untuk mendapatkan keeratan hubungan antar peubah yang diteliti. Nilai korelasi inilah yang nantinya akan dibandingkan dengan nilai korelasi yang diperoleh dari Analisis Komponen Utama.

install_load('factoextra','ggcorrplot')
ggcorrplot(cor(data[,-c(1,2)]), type="lower",lab = TRUE)

Dari plot matriks korelasi di atas terlihat bahwa korelasi negatif tertinggi ialah korelasi antara indikator Tanpa Air Bersih (%) dengan Lama Sekolah Perempuan (tahun) yakni sebesar \(-0.63\). Sedangkan korelasi negatif terendah ialah antara indikator Lama Sekolah Perempuan (tahun) dengan Rasio Tenaga Kesehatan yakni sebesar \(-0.3\). Disisi lain, korelasi positif tertingginya ialah antara indikator Kemiskinan (%) dengan Tanpa Air Bersih yakni sebesar \(0.56\). Sedangkan korelasi positif terendah adalah antara indikator NCPR degnan Peneluaran pangan (%) yakni sebesar \(0.11\).

2 No 1.b

Berikan penjelasan berapa banyak komponen utama yang sebaiknya dipertahankan untuk menggambarkan data ini tanpa banyak keragaman data asal yang terbuang!

pca_data <- prcomp(data[,-c(1,2)],scale=TRUE,center=TRUE)
summary(pca_data)
## Importance of components:
##                           PC1    PC2     PC3     PC4     PC5     PC6    PC7
## Standard deviation     2.1028 1.0764 0.89187 0.75883 0.73160 0.67314 0.6307
## Proportion of Variance 0.4913 0.1287 0.08838 0.06398 0.05947 0.05035 0.0442
## Cumulative Proportion  0.4913 0.6200 0.70842 0.77240 0.83187 0.88222 0.9264
##                            PC8     PC9
## Standard deviation     0.58726 0.56338
## Proportion of Variance 0.03832 0.03527
## Cumulative Proportion  0.96473 1.00000
  • Standard deviaton merupakan akar dari akar ciri (eigenvalue). Dalam hal ini akar ciri berperan sebagai variance dari masing-masing komponen utama.

  • Proportion of Variance menjelaskan seberapa besar keragaman peubah asal yang dapat dijelaskan oleh masing-masing komponen utama. Semakin besar nilainya berarti semakin baik pula komponen utama tersebut untuk merepresentasikan peubah asal. Lalu pada tabel diatas, nilai terbesarnya iyalah PC3 dengan nilai \(0.08838\) sedangkan nilai terkecilnya ialah PC9 dengan nilai \(0.03527\).

  • Cumulative Proportion menjelaskan seberapa besar keragaman yang dapat dijelaskan oleh komponen utama secara kumulatif. Misalnya saja dengan menggunakan dua komponen utama saja (PC1 dan PC2), sudah bisa menjelaskan 62% keragaman dari data.

fviz_screeplot(pca_data,geom="line")

Hal lain yang bisa dilakukan untuk menentukan berapa banyak komponen utama yang digunakan adalah dengan screeplot. Banyaknya komponen utama bisa ditentukan dengan screeplot dengan melihat di komponen utama yang mana garisnya berbentuk seperti siku (elbow). Pada gambar diatas, garis membentuk siku saat berada di komponen utama kedua (dimension kedua). Namun jika melihat pada Cumulative Proportion nya, Komponen Utama 1 dan Komponen Utama 2 hanya dapat menjelaskan 62% keragaman dari data saja. Dan jika melihat pada Proportion of Variance nya, PCA3 adalah nilai terbesarnya dengan nilai \(0.08838\) . Walaupun siku yang terbentuk pada plot tidak terlalu tajam, Namun dengan 2 pertimbangan yang sudah dijelaskan. Maka banyaknya komponen utama yang digunakan sebanyak tiga (Komponen Utama 1, 2, dan 3).

3 No 1.c

Berapakah besarnya kontribusi 2 komponen utama pertama dalam menjelaskan keragaman data asal?

pca_data <- prcomp(data[,-c(1,2)],scale=TRUE,center=TRUE)
summary(pca_data)
## Importance of components:
##                           PC1    PC2     PC3     PC4     PC5     PC6    PC7
## Standard deviation     2.1028 1.0764 0.89187 0.75883 0.73160 0.67314 0.6307
## Proportion of Variance 0.4913 0.1287 0.08838 0.06398 0.05947 0.05035 0.0442
## Cumulative Proportion  0.4913 0.6200 0.70842 0.77240 0.83187 0.88222 0.9264
##                            PC8     PC9
## Standard deviation     0.58726 0.56338
## Proportion of Variance 0.03832 0.03527
## Cumulative Proportion  0.96473 1.00000

Seperti yang sudah dijelaskan sebelumnya pada no1.b.. 2 komponen utama dapat menjelaskan 62% dari keragaman data asal. Angka ini bisa dibilang besar. Ini bisa di dukung oleh plot screeplot nya.

fviz_screeplot(pca_data,geom="line")

Yang mana jika kita melihat ulang, maka siku tertajam berada di angka 2.

4 No 1.d

Berikan interpretasi pada 2 komponen utama pertama!

datatable(pca_data$rotation, filter = 'top', 
          options = list(pageLength = 10))

Interpretasi metode PCA dapat dilakukan dengan menggunakan vektor ciri pada masing-masing komponen utama. Semakin besar vektor ciri pada komponen utama tertentu, maka semakin besar pula kontribusi dari peubah asal untuk membangun komponen utama tersebut. Catatan lain yang perlu diperhatikan adalah nilai negatif pada vektor ciri menandakan peubah asal memberikan kontribusi yang berkembalikan pada pembentukan komponen utama. Dalam konteks vektor ciri negatif, semakin besar nilai peubah asal semakin kecil nilai pada komponen utama.

Vector ciri yang akan dinterpretasikan hanya pada PC1 dan PC2. PC1 memiliki vektor ciri yang relatif sama yaitu berkisar di 0.3 untuk semua Indikator. Vektor ciri yang relatif sama ini menandakan bahwa kontribusi peubah asal untuk membangun komponen utama ini relatif sama. Artinya nilai-nilai yang ada di PC1 (score value) dapat menggambarkan ketahanan pangan untuk semua indikator. Oleh karena itu kita dapat dapat menggunakan PC1 untuk menentukan wilayah mana yang memiliki ketahanan pangan terbaik untuk semua indikatornya.

PC2 memiliki vektor ciri yang relatif sama juga yaitu berkisar di 0.2. Vektor ciri yang relatif sama ini menandakan bahwa kontribusi peubah asal untuk membangun komponen utama ini relatif sama. Artinya nilai-nilai yang ada di PC2 (score value) dapat menggambarkan ketahanan pangan untuk semua indikator. Oleh karena itu kita dapat dapat menggunakan PC2 untuk menentukan wilayah mana yang memiliki ketahanan pangan terbaik untuk semua indikatornya.

Note: Interpretasi komponen utama memiliki subjektifitas yang tinggi, oleh karena itu setiap orang menginterpretasikanya berbeda.

Hal terakhir yang bisa diinterpretasikan adalah score value pada PC1 dan PC2. Score value merupakan observasi/koordinat baru pada peubah komponen utama. Dalam konteks data pelari diatas, observasinya adalah negara, sehingga kita dapat memberi insight cabang perlombaan lari dari setiap negara. Untuk melihat score value pada komponen utama dapat dilihat dengan menggunakan sintaks berikut.

datatable(pca_data$x, filter = 'top', 
          options = list(pageLength = 10))

Agar lebih mudah dalam menginterpretasikan score value maka digunakaan grafik di bawah ini.

fviz_pca_ind(pca_data,col.ind = "darkred")

Berdasarkan grafik score value dapat diketahui bahwa negara yang memiliki catatan ketahanan pangan terbaik untuk semua indikator adalah wilayah baris 479 (papua - puncak jaya)

 data$Wilayah[479]
## [1] "papua - puncak jaya"

5 No 2.a

Lakukan analisis MANOVA untuk membandingkan keenam kategori komposit berdasarkan 9 indikator ketahanan pangan. Gunakan taraf nyata 5%. Apakah kesimpulannya?

install_load('car')
## Loading required package: carData
model <- manova(cbind(NCPR, `Kemiskinan (%)`, `Pengeluaran Pangan (%)`, 
                      `Tanpa Listrik (%)`, 
                     `Tanpa Air Bersih (%)`, `Lama Sekolah Perempuan (tahun)`, 
                     `Rasio Tenaga Kesehatan`, `Angka Harapan Hidup (tahun)`, `Stunting (%)`) ~ `Kategori Komposit`, data=data)

summary(model)
##                      Df  Pillai approx F num Df den Df    Pr(>F)    
## `Kategori Komposit`   1 0.85577   332.28      9    504 < 2.2e-16 ***
## Residuals           512                                             
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
summary.aov(model, intercept = FALSE)
##  Response NCPR :
##                      Df Sum Sq Mean Sq F value    Pr(>F)    
## `Kategori Komposit`   1 911.55  911.55  1206.6 < 2.2e-16 ***
## Residuals           512 386.80    0.76                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response Kemiskinan (%) :
##                      Df Sum Sq Mean Sq F value    Pr(>F)    
## `Kategori Komposit`   1  10860 10860.0  314.51 < 2.2e-16 ***
## Residuals           512  17679    34.5                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response Pengeluaran Pangan (%) :
##                      Df Sum Sq Mean Sq F value   Pr(>F)    
## `Kategori Komposit`   1   6899  6898.6  35.726 4.26e-09 ***
## Residuals           512  98867   193.1                     
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response Tanpa Listrik (%) :
##                      Df Sum Sq Mean Sq F value    Pr(>F)    
## `Kategori Komposit`   1  10346 10346.3  237.37 < 2.2e-16 ***
## Residuals           512  22317    43.6                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response Tanpa Air Bersih (%) :
##                      Df Sum Sq Mean Sq F value    Pr(>F)    
## `Kategori Komposit`   1  76263   76263  286.06 < 2.2e-16 ***
## Residuals           512 136500     267                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response Lama Sekolah Perempuan (tahun) :
##                      Df  Sum Sq Mean Sq F value    Pr(>F)    
## `Kategori Komposit`   1  163.71 163.711  72.552 < 2.2e-16 ***
## Residuals           512 1155.30   2.256                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response Rasio Tenaga Kesehatan :
##                      Df Sum Sq Mean Sq F value    Pr(>F)    
## `Kategori Komposit`   1  14652 14651.7  175.12 < 2.2e-16 ***
## Residuals           512  42836    83.7                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response Angka Harapan Hidup (tahun) :
##                      Df Sum Sq Mean Sq F value    Pr(>F)    
## `Kategori Komposit`   1 1971.6 1971.56  244.69 < 2.2e-16 ***
## Residuals           512 4125.4    8.06                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
##  Response Stunting (%) :
##                      Df  Sum Sq Mean Sq F value    Pr(>F)    
## `Kategori Komposit`   1  5756.8  5756.8   122.2 < 2.2e-16 ***
## Residuals           512 24119.8    47.1                      
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Hasil dari analisis MANOVA menunjukkan bahwa terdapat perbedaan yang signifikan antara keenam kategori komposit (Kategori Komposit) berdasarkan 9 indikator ketahanan pangan yang telah dianalisis. Ini dapat dilihat dari nilai p-value yang sangat kecil (kurang dari tingkat signifikansi 0.05) pada setiap variabel respons.

Berikut adalah interpretasi untuk setiap variabel respons:

  1. NCPR:

    • Terdapat perbedaan yang signifikan antara kategori komposit dalam hal Nilai Konsumsi Per Kapita Rata-rata (NCPR).

    • Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).

  2. Kemiskinan (%):

    • Terdapat perbedaan yang signifikan antara kategori komposit dalam hal tingkat kemiskinan.

    • Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).

  3. Pengeluaran Pangan (%):

    • Terdapat perbedaan yang signifikan antara kategori komposit dalam hal persentase pengeluaran untuk pangan.

    • Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).

  4. Tanpa Listrik (%):

    • Terdapat perbedaan yang signifikan antara kategori komposit dalam hal persentase rumah tangga tanpa listrik.

    • Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).

  5. Tanpa Air Bersih (%):

    • Terdapat perbedaan yang signifikan antara kategori komposit dalam hal persentase rumah tangga tanpa akses air bersih.

    • Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).

  6. Lama Sekolah Perempuan (tahun):

    • Terdapat perbedaan yang signifikan antara kategori komposit dalam hal lamanya pendidikan perempuan.

    • Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).

  7. Rasio Tenaga Kesehatan:

    • Terdapat perbedaan yang signifikan antara kategori komposit dalam hal rasio tenaga kesehatan.

    • Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).

  8. Angka Harapan Hidup (tahun):

    • Terdapat perbedaan yang signifikan antara kategori komposit dalam hal angka harapan hidup.

    • Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).

  9. Stunting (%):

    • Terdapat perbedaan yang signifikan antara kategori komposit dalam hal persentase stunting (kondisi gizi buruk pada anak).

    • Perbedaan ini sangat signifikan dengan nilai p-value yang sangat kecil (< 0.001).

Kesimpulannya, berdasarkan analisis MANOVA, dapat disimpulkan bahwa ada perbedaan yang signifikan antara kategori komposit dalam semua indikator ketahanan pangan yang telah dianalisis. Hal ini menunjukkan bahwa faktor kategori komposit memiliki pengaruh yang signifikan terhadap berbagai aspek ketahanan pangan di wilayah tersebut.

6 No 2.b

Susunlah selang kepercayaan simultan 95% untuk menentukan kategori yang memiliki perbedaan rataan yang signifikan.

7 No 2.c

Apakah asumsi MANOVA dapat dipenuhi oleh data tersebut?